Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на обучение на 88%Исследователи обучали модель Qwen2.5-VL двум сценариям: Агентный поиск: модель планирует

Forwarded from Neurohive - Нейронные сети, AI, ML, DL

Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на обучение на 88%

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github .

#Stateoftheart

www.tg-me.com/no/Data Science by ODS ai 🦜/com.opendatascience/2307

2.8K viewsMay 22 at 10:57

tg-me.com/opendatascience/2307

Create: 2025-05-22
Last Update: 2025-06-01 16:53:35

BY Data Science by ODS.ai 🦜

Share with your friend now:
tg-me.com/opendatascience/2307

Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Can I mute a Telegram group?

How Does Bitcoin Mining Work?